TAD的鉴定方法(一)

您所在的位置:网站首页 amol tad TAD的鉴定方法(一)

TAD的鉴定方法(一)

2023-08-04 23:49| 来源: 网络整理| 查看: 265

TAD的鉴定方法(一)——cool格式的转换

上次我们使用HiC-Pro将HiC数据比对到了参考基因组上,并且得到了bin水平的HiC数据(交互文件),我们这里介绍一下TAD的鉴定方法(使用HiCPeaks和TADLib中的两个程序),大致分为以下两步(我们会分)

cool格式的转换 TAD的鉴定

注:TAD的相关介绍请看本博客之前的文章:三维基因组之TAD的形成机制以及其特征

1.cool格式的转化——HiCPeaks

HiC-Pro所得到的bin水平的HiC数据是TXT/NPZ bin水平的HiC数据,不能直接进行TAD的鉴定,HiCPeaks中的toCooler是将TXT/NPZ bin水平的HiC数据转化成cool格式,以便后续的分析。

1.1 HiCPeaks的安装

HiCPeaks的安装需要使用conda进行,操作也十分的简单

其需要一些python要求 Python 2.7/3.5+、Multiprocess、Numpy、Scipy、Matplotlib、Pandas、Statsmodels、Scikit-Learn、H5py、Cooler 还需要ucsc-fetchchromsizes

具体安装操作如下

首先设置通道,使上面列出的所有包都可访问(注意,顺序很重要,以确保正确的优先级)

123conda config --add channels defaultsconda config --add channels biocondaconda config --add channels conda-forge

然后就进行依赖的安装

1conda install numpy scipy matplotlib pandas statsmodels scikit-learn h5py multiprocess cooler ucsc-fetchchromsizes

最后进行hicpeaks的安装

1python setup.py install 1.2 HiCPeakst之oCooler的使用1.2.1 原始数据的处理

首先我们依据bin的编号文件Ga_1_40000_abs.bed将交互文件Ga_1_40000.matrix进行处理,提取出来研究中关注的两条染色体的交互数据,这里就以染色体内的交互进行说明(以前五号染色体为例)

Ga_1_40000_abs.bed文件内容如下,四列分别是:染色体编号、bin起始、bin终止、bin编号

123456Chr01 0 40000 1Chr01 40000 80000 2Chr01 80000 120000 3Chr01 120000 160000 4Chr01 160000 200000 5...

这里我们需要批量提取所有的染色体起始和终止bin的编号,可以用bash脚本实现,脚本如下

1234for i in 1 2 3 4 5 #提取每个染色体的起始和终止bin编号 do grep "Chr0"$i"" Ga_1_40000_abs.bed|awk 'NR==1{printf "'$i'" "\t" $4 "\t"}END{print $4}'>>Ga.beddone

然后我们就根据染色体的起始和终止编号进行染色体内交互的提取

Ga_1_40000.matrix文件如下

1234561 1 751 2 1121 3 931 4 331 5 18...

交互提取的bash脚本如下

12345678a=($(cut -f2 Ga.bed)) #bed文件是每个染色体的起始和终止bin编号b=($(cut -f3 Ga.bed))mkdir 40K #交互文件要放进这个文件夹里,文件夹得命名为bin的大小for i in $(seq 1 5) #生成每个染色体内的交互文件命名为 染色体号_染色体号.txt(染色体号为自然数字1、2、3...),并且让bin编号从0开始(这个很重要)doawk -v x=${a[i-1]} -v y=${b[i-1]} '{if(x


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3